Học tăng cường Q-learning_(học_tăng_cường)

Học tăng cường liên quan đến một tác nhân, một tập hợp các trạng thái S {\displaystyle S} và một bộ A {\displaystyle A} các hành động trên mỗi trạng thái. Bằng cách thực hiện một hành động a ∈ A {\displaystyle a\in A} , các tác nhân chuyển từ trạng thái này sang trạng thái khác. Thực hiện một hành động trong một trạng thái cụ thể cung cấp cho tác nhân một phần thưởng (một số điểm). Mục tiêu của tác nhân là tối đa hóa phần thưởng (trong tương lai) của nó. Nó thực hiện điều này bằng cách thêm phần thưởng tối đa có thể đạt được trong tương lai vào phần thưởng để đạt được trạng thái hiện tại, do đó hiệu quả hoạt động của hành động hiện tại được đánh giá bằng phần thưởng tiềm năng trong tương lai. Phần thưởng tiềm năng này là tổng của các giá trị dự kiến của phần thưởng của tất cả các bước trong tương lai bắt đầu từ trạng thái hiện tại.Ví dụ, hãy xem xét quá trình lên tàu, trong đó phần thưởng được đo bằng mức âm của tổng thời gian lên tàu (nói cách khác, chi phí lên tàu bằng thời gian lên tàu). Một chiến lược là vào tàu ngay khi cửa mở, giảm thiểu thời gian chờ đợi ban đầu cho chính bạn. Tuy nhiên, nếu tàu đông đúc, thì bạn sẽ vào chậm hơn, sau hành động đầu tiên là bước vào cửa thì mọi người sẽ đẩy bạn ra để rời tàu khi bạn cố gắng lên tàu. Tổng thời gian lên tàu, hoặc chi phí là:

  • Thời gian chờ 0 giây + thời gian chiến đấu 15 giây

Vào ngày hôm sau, do tình cờ ngẫu nhiên (thử nghiệm), bạn quyết định chờ đợi và để người khác xuống tàu trước. Điều này ban đầu dẫn đến thời gian chờ đợi lâu hơn. Tuy nhiên, thời gian chiến đấu với các hành khách khác là ít hơn. Nhìn chung, con đường này có phần thưởng cao hơn so với ngày hôm trước, vì tổng thời gian lên máy bay là:

  • Thời gian chờ 5 giây + thời gian chiến đấu 0 giây.

Thông qua thăm dò, mặc dù hành động ban đầu (chờ đợi) dẫn đến chi phí (hoặc phần thưởng âm) lớn hơn so với chiến lược lao vào tàu, chi phí chung là thấp hơn, do đó là một chiến lược bổ ích hơn.

Theo lý thuyết, việc lựa chọn hành động tiếp theo là ngẫu nhiên, nhưng trên thực tế, để đẩy nhanh tốc độ hội tụ, giải pháp tham lam được áp dụng, hành động có phần thưởng tiềm năng cao hơn sẽ được chọn và có 1 tỉ lệ ngẫu nhiên chọn các hành động khác.

Tài liệu tham khảo

WikiPedia: Q-learning_(học_tăng_cường) http://webdocs.cs.ualberta.ca/~sutton/book/ebook/n... http://papers.nips.cc/paper/3964-double-q-learning http://www.bkgm.com/articles/tesauro/tdl.html //edwardbetts.com/find_link?q=Q-learning_(h%E1%BB%... //books.google.com/books?id=YPjNuvrJR0MC //books.google.com/books?id=clKwynlfZYkC&pg=PA320-... //books.google.com/books?id=mGtQAAAAMAAJ&pg=PA397 //books.google.com/books?id=oLcAiySCow0C http://www.research.ibm.com/infoecon/paps/html/ijc... http://www.leemon.com/papers/1995b.pdf